Image Embedding

Definition / 定义

“Image embedding（图像嵌入/图像向量表示）”指把一张图片通过算法（常见为神经网络）转换成一个固定长度的向量（embedding）。这个向量会尽量保留图片的语义信息，便于进行相似度检索、分类、聚类、跨模态检索（图文匹配）等任务。

Pronunciation / 发音

/ˈɪmɪdʒ ɪmˈbɛdɪŋ/

Examples / 例句

The model turns each photo into an image embedding.
该模型把每张照片转换成一个图像嵌入向量。

By comparing cosine similarity between image embeddings, we can retrieve visually and semantically related images even when lighting and backgrounds differ.
通过比较图像嵌入之间的余弦相似度，我们可以在光照和背景不同的情况下，仍然检索到在视觉与语义上相关的图片。

Etymology / 词源

“Image”来自拉丁语 imago（形象、肖像），“Embedding”来自“embed”（嵌入、嵌进去），其词根含义与“放入/固定在某处”相关。在机器学习语境中，embedding 常指把对象映射到向量空间的“稠密表示”；合起来“image embedding”就是“把图像嵌入到向量空间中的表示”。

Related Words / 相关词

Literary Works / 文学作品

Deep Learning（Ian Goodfellow, Yoshua Bengio, Aaron Courville）——讨论“表示学习/嵌入”思想在视觉任务中的应用背景。
Computer Vision: A Modern Approach（David A. Forsyth, Jean Ponce）——在特征表示与相似性度量等章节中涉及与图像嵌入相关的概念。
“Learning Transferable Visual Models From Natural Language Supervision (CLIP)”（Radford 等）——广泛使用图像与文本嵌入进行跨模态对齐与检索。
“FaceNet: A Unified Embedding for Face Recognition and Clustering”（Schroff 等）——以“embedding”形式学习人脸图像的向量表示，用于识别与聚类。